高分文章中都在用的找核心基因的神器—WGCNA你确定不了解下吗？

Original 运营部-HLY 联川生物 2024-03-27

在大样本中，差异分析或趋势分析无法对基因进行有效分类。例如，比较组太多的时候，维恩图无能为力；STEM类型的聚类软件在样本构成复杂的情况下，也不能做高效、简洁的分类；另外，由于KEGG的pathway都来源文献已报到的调控关系，如果您关注的调控关系在已有数据库未录入或还没被报道，依赖这些分析难以找到线索......那如何解决这些问题呢？福利来喽！

WGCNA译为加权基因共表达网络分析（Weighted Gene Co-expression Network Analysis），分析方法旨在寻找协同表达的基因模块(module)，并探索基因网络与关注的表型之间的关联关系，以及网络中的核心基因（hub gene）。适用范围：
WGCNA适用于复杂的数据模式，一般可应用的研究方向有：不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。一般要求15个样本及以上（3-5组及以上）。关键点：

WGCNA中两个关键的概念是模块与核心基因。

把基因聚类成模块后，可以对每个模块进行三个层次的分析：

1. 功能富集分析查看其功能特征是否与研究目的相符；

2. 模块与性状进行关联分析，找出与关注性状相关度最高的模块；

3. 模块与样本进行关联分析，找到样品特异高表达的模块。

WGCNA分析基于两个假设

1.相似表达模式的基因可能存在共调控、功能相关或处于同一通路；

2.基因网络符合无尺度分布。

应用组学和领域
应用组学有转录组、转录组+代谢组、转录组+甲基化等;领域有生长发育、肿瘤发生机制、不同品系的比较、新基因注释、目标基因潜在相关基因的筛选、药物作用靶点研究等。广泛来讲可使用于任何组学和领域。分析内容

准备输入文件：

①表达矩阵:可使用FPKM、RPKM、TPM等基因表达量。

②临床信息或者其它表型，即样本的属性。

STEP1：去除缺失值较多的基因和样品

STEP2:离群样本查看及过滤

2.1先查看是否有离群样本

无离群样本

2.2去除离群样本 (若存在明显离群样本，设定阈值，进行去除)

有离群样本

STEP3：确定软阈值

软阈值：6

如果R2没有到达0.85，0.9以上时，beta值则取经验值。

nSamples < 20 软阈值选取9；20 <= nSamples < 30 选取8；30 <= nSamples < 40选取7

STEP4：模块挖掘（每个模块中基因以及K值的输出）

一个模块中的所有基因为一个颜色，左图的上边部分是对所有基因进行的聚类，下边部分为基因聚类的热图，可以看到，有一些基因虽然属于一个模块，但从聚类上来看并不一定聚到一起，这跟样本相关性分析一样，同样处理的生物学重复样本不一定相关性系数高。这里用不同的颜色来代表那些所有的模块，其中灰色默认是无法归类于任何模块的那些基因，如果灰色模块里面的基因太多，那么前期对表达矩阵挑选基因的步骤可能就不太合适。

STEP5：基因共表达可视化

基因间表达相似度越高，颜色越深。如果是把全部基因画上去，可以很清楚的看到各个区块颜色差异，但是如果基因过多，就非常耗费资源和时间。一般情况下，绘制此图会获取部分基因绘制，默认随机取400个基因。

STEP6：基因和模块的相关性(MM值)

有些文章或者介绍里面，会使用MM值来筛选hub gene。主要方法就是计算所有基因和各模块特征值的相关性，然后每个模块中筛选出MM值较大的gene作为hub gene。STEP7：模块之间的相关性

STEP8：模块与样本相关性热图

除了可以分析模块与性状的关系，样本与性状的关系之外，还可以进行模块和样本的分析，这个可以为没有表型数据的客户提供研究思路，通过分析模块和样本的关系，得到模块与样本之间的相关性系数，如下图所示，颜色越深，表示模块和样本之间越相近，进而挑选出与某一类样本相近的模块，再进行其模块的基因表达情况，功能情况等进行后续的研究。

STEP9：表型数据（性状）热图左图上方为样本的聚类情况，下方为样本性状热图，颜色越深，则表示相关性越大，这个分析可以挑选出某种性状相关性最高的样本，比如说，不同的时间点，不同的性状，则可以判断出，哪个时间点与哪个性状更相关。

STEP10：模块与性状关联分析（必须要有表型数据才可以进行分析）

通过模块与各种表型的相关系数，可以很清楚的挑选自己感兴趣的模块进行下游分析。这个图就是把moduleTraitCor这个矩阵使用热图可视化颜色越深表示模块与性状越相关，P值越小。通过此分析，可以挑选与性状相关性较高的模块。此图可以与性状与样本的关系图一起结合，可以先挑选出与性状最相关的样本，再次挑选出与性状最相关的模块，通过分析此模块中的基因在这些样本中的表达情况，为什么如此相关等等后续研究。

STEP11：模块与样本特性（处理条件/临床特征等）相关项

STEP12：MM和GS相关性散点图

MM表示基因和模块相关性，GS表示基因与性状相关性，绘制MM和GS的散点图，可以深入探究不仅和对应模块高度相关，也和对应性状高度相关的基因。

STEP13：导出网络图数据（包括模块中两两基因间权重）

将主要模块里面的基因直接的相互作用关系信息导出到cytoscape绘制网络图。

注意：分析中不要急，step5: 基因共表达可视化和step13.导出网络图数据等过程分析较慢，耐心等待。

那么，问题来了，您如何实现WGCNA分析？

如果你熟悉R语言，以及其他的配套分析方法（例如GO、KEGG富集分析），可以自己动手练习和摸索。如果你不熟悉这一系列方法，或着时间不富裕。您可以放心的交付给我们联川生物公司，我们将提供丰富的分析结果、详细的说明文档和专业的售前售后服务。

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

高分文章中都在用的找核心基因的神器—WGCNA你确定不了解下吗？

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

生成图片，分享到微信朋友圈

高分文章中都在用的找核心基因的神器—WGCNA你确定不了解下吗？

您可能也对以下帖子感兴趣

你手放哪呢，出生啊